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摘 要 : 合成 少数 类 过 采样 技术 (SMOTE) 是 解决 类 不 平衡 问题 的 有 效 方法 之 一 。 但 是 ，SMOTE 的 线性 播 值 机 制 将 
合成 样本 限制 在 原始 样本 的 连 线 上 , 时 致 新 样本 缺乏 多 样 性 , 并 且 这 条 连 线 穿 过 多 数 类 区 域 时 可 能 会 生成 噪声 样本 。 
针对 上 述 问 题 ， 提 出 一 种 带 有 超 长 方 体 约束 的 少数 类 样本 生成 机 制 。 该 机 制 使 用 超 长 方 体 作为 新 样本 的 生成 区 域 来 
代替 线性 插值 ， 以 增加 合成 样本 与 原始 样本 的 差异 性 。 并 通过 检测 超 长 方 体内 是 否 存 在 多 数 类 样本 来 决定 是 否 修正 
此 超 长 方 体 ， 从 而 防止 新 合成 样本 落 入 多 数 类 区 域内 。 使 用 所 提 机 制 蔡 换 线性 插值 ， 并 集成 在 三 种 过 采样 方法 
SMOTE, Borderline-SMOTE 和 ADASYN 中 ， 然 后 在 KEEL 的 11 个 标准 数据 集 上 进行 了 实验 评估 。 结 果 表 明 ， 相 
比 于 原始 方法 ， 集 成 后 的 方法 能 够 帮助 分 类 器 取得 更 高 的 Fl 值 和 相当 的 G-mean。 这 说 明 超 长 方 体 生成 机 制 能 够 显 
著 改 善 分 类 器 对 少数 类 样本 的 识别 能 力 ， 并 且 能 够 兼顾 到 多 数 类 样本 。 
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Generation mechanism for minority samples with hypercuboid constraints 
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Abstract: Synthetic minority oversampling technology (SMOTE) is one of the effective methods to solve the class- 
imbalanced problem. However, the linear interpolation mechanism of SMOTE restricts the synthesized samples to the 
connecting line of the original samples, resulting in a lack of diversity for new samples, and may generate noisy samples when 
this line passes through the majority class region. In response to the above issues, this paper proposed a generation mechanism 
for minority samples with hypercuboid constraints. This mechanism constructed a hypercuboid as the generation region of 
new samples instead of linear interpolation, thereby increasing the variability between the synthesized samples and the original 
samples. Then, it detected whether there were majority samples in the hypercuboid to determine whether to adjust the 
hypercuboid, which aimed at preventing the new samples into the region of the majority class. This paper integrated the 
proposed mechanism into three oversampling methods, i. e. , SMOTE, Borderline-SMOTE, and ADASYN, by using it to 
replace linear interpolation, and then experimentally evaluated the integrated methods on 11 benchmark datasets from KEEL. 
The results showed that compared to the original methods, the integrated methods could help the classifier to obtain higher 
F1 and comparable G-mean. It verifies that the hypercuboid generation mechanism can significantly improve the classifier's 
ability to recognize minority samples, and meanwhile the majority samples are also taken into account. 


Key words: imbalanced classification; oversampling technique; SMOTE; generation mechanism; hypercuboid constraints 


0 zj 来 强调 其 对 少数 类 样本 的 重视 0 5。 数据 层面 方法 在 分 类 器 

E 介入 之 前 先 对 输入 样本 进行 预 处 理 ， 以 减少 数据 不 平衡 的 影 
针对 不 平衡 数据 的 分 类 问题 是 机 器 学 习 与 数据 挖掘 领域 ” 响 情 ' 的。 数据 层面 方法 主要 包括 欠 采 样 技术 和 过 采样 技术 。 
面临 的 一 项 挑战 ,3。 在 二 分 类 问题 中 , 数据 不 平衡 意味 着 少 。 ” 欠 采 样 技术 通过 移 除 部 分 多 数 类 样本 来 实现 平衡 ， 但 是 可 能 
数 类 样本 的 数量 远 远 小 于 多 数 类 样本 的 数量 E,4。 这 种 类 间 不 ”丢失 重要 的 分 布 信息 505 299。 而 过 采样 通过 增加 少数 类 样本 使 
平衡 会 引起 标准 分 类 器 的 偏 任 ， 即 分 类 面 更 容易 被 推 向 少数 ”数据 集 达 到 平衡 ， 其 中 最 经 典 的 方法 是 Chawla 等 7 提出 的 
类 样本 , 导致 部 分 少数 类 样本 不 能 被 正确 识别 四。 然而 , 在 一 ”合成 少数 类 过 采样 技术 (Synthetic Minority Oversampling 
些 重要 的 应 用 领域 中 ,如 医学 诊断 外、 软件 缺陷 预测 中、 恶性” TEchnique, SMOTE). SMOTE 通过 在 原始 的 少数 类 样本 之 
肿瘤 分 级 外 等 , 少数 类 通常 包含 更 关键 的 信息 中。 因此, 如 何 。 间 进 行 线性 插值 0 来 生成 新 的 少数 类 样本 ,能 够 提高 分 类 器 
提高 针对 少数 类 样本 的 分 类 性 能 是 不 平衡 学 习 中 的 关键 问题 。 在 测试 集 上 的 泛 化 能 力 。 
目前 ， 处 理 数 据 不 平衡 问题 的 方法 可 以 分 为 两 类 509: 算 近年 来 ， 许 多 SMOTE 类 的 方法 被 相继 提出 。 这 些 方法 


法 层面 方法 和 数据 层面 方法 。 算 法 层面 方法 通过 修改 分 类 器 ”或 关注 类 间 不 平衡 问题 或 致力 于 改善 类 内 不 平衡 问题 9。 对 
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于 类 间 不 平衡 问题 ，Han 等 cm 认为 位 
更 容易 被 误 分 类 ， 并 提 
成 过 采样 
应 合成 少数 类 过 采 刷 


类 样本 所 


Borderline-SMOTE 还 
响 很 大 ， 当 天 取 不 同 的 值 时 ， 新 合成 档 
差异 。 严 等 2 提出 者 
CMOTE,， 该 技术 根 
^ BIB SE PSI D AE, 一 直 是 需要 
提出 的 AdaN SMOTE 根据 精度 下 降 来 


的 近邻 值 ， 
成 的 新 样本 能 够 保留 少数 类 档 
效 避 免 噪 声 、 小 分 离 和 复杂 
持 度 SD 和 影响 因 
可 以 避免 SMOTE 方法 选择 村 
处 总 体 样本 的 分 丰 
优化 ， 以 提高 其 运行 效率 。 

对 于 类 内 不 习 
盛 等 29 使 用 


长 样 本 的 合成 权重 。 但 无 论 是 
， 它 们 受 近 邻 参 数 K 的 影 
本 的 分 布 具 有 明显 的 
性 覆盖 算法 的 过 采样 技术 
民 样 本 的 选择 。 但 对 于 两 
保 讨 的 问题 。 王 等 P3] 
自 适应 地 决定 少数 类 
他 因素 调整 近邻 大 小 。 该 方法 合 
本 明显 的 聚 类 特征 ， 并 可 以 有 


E LE. 
成 


素 posFac 来 指导 边界 样本 的 合成 ， 它 不 仅 
E， 而 且 能 够 综合 考 
。 但 SDRSMOTE 算法 仍 需 要 进一步 


将 其 与 SMOTE 算法 相 结 合 。 


数据 ， 且 获得 的 聚 簇 不 受 空间 形 书 


数 带 来 的 3 


F 衡 问题 ( 指 少 数 类 样本 旦 多 聚 簇 分 布 ])， 

Box-Cox 变换 和 o 准则 改进 了 密度 峰值 聚 类 , 并 
本 效 剔 除 各 类 噪声 
， 避 免 了 手动 输入 参 
F 扰 。 Bunkhumpornpat 等 2 将 少数 类 划分 


为 多 个 任意 形状 的 子 聚 徐 ， 然 后 在 随机 选择 的 少数 类 样本 与 


子 聚 秘 中 心 之 间 
FREER, 


Æ. Nekooeimehr 等 
样 方法 A-SUMO. 在 
个 子 聚 簇 的 过 采样 大 小 。 
面 也 取得 了 较 好 的 效 


。 然而 ,该 方法 容易 导致 类 间 数 
有 较 高 过 采样 权重 的 边界 样 
#/ 无 监督 加 权 过 采 


虑 距离 因 


As A 
35 o Douzas & 


式 过 采样 方法 。 
重 。 然 而 ， 


1 


K-Means 2S5 1E CU 
且 该 方法 也 未 提供 可 行 的 策略 来 确定 最 佳 


Ba 使 用 密 


3 uu 


本 的 合成 权重 被 自 适 应 
高 的 采样 机 会 。 尽 
但 安全 距离 阔 值 的 设 定 


值 区 间 目 前 只 能 通过 实验 来 获得 。 


制 : 数据 选择 
数据 选择 机 制 世 


同时 它 也 是 一 些 过 采 相 


30。 文 献 [32] 也 指 日 


TH EJ HIR t 
的 数据 质量 
衡 问 题 的 

备 扩展 少数 类 
中 的 重要 性 。 
MEZERY 
类 区 域 而 形成 品 

为 了 解决 线性 插 


随机 性 和 多 样 必 
生成 机 制 (简称 超 长 方 体 生成 机 千 


样本 及 其 选 定 近 令 
样本 将 在 此 超 长 方 


和 法 后 ， 它 自 适应 确定 每 
，A-SUMO 在 标识 边界 样本 方 
， 该 方法 在 聚 类 时 仅 考 
羊 本 分 布 信息 ， 导 致 抗 噪声 干扰 能 力 较 
T K-Means 和 SMOTE 的 启发 
居 每 个 聚 入 的 大 小 和 密度 来 估计 采样 权 
找到 任何 不 规则 的 聚 簇 。 


REM. Tao 等 


K-Means 算法 在 处 理 类 内 
不 平衡 问题 上 的 不 足 。 根 据 欧式 距离 和 密度 分 布 ， 少 数 类 样 
电 计算 ， 边 界 和 低 密度 样本 将 获得 更 
该 方法 能 够 有 效 避 人 免 噪声 数据 的 合成 ， 

个 待 调 参 数 y， 它 的 合理 取 


实际 上 ， 每 一 个 SMOTE 类 的 方法 均 可 被 分 解 为 两 个 机 
数据 生成 机 制 。 而 上 述 这 些 方法 均 是 对 
采用 与 SMOTE 
插值 。 然 而 ， 这 种 线性 插值 方式 限制 了 合成 样本 
方法 不 能 克服 类 内 不 平 


成 的 新 样本 应 该 


周 少数 类 在 数据 总 体 分 布 
ARABI, ZEE 
这 将 导致 新 样本 落 入 多 数 
步 加 重 两 类 数据 之 间 的 重 共 1。 
几 制 存在 的 问题 ， 并 使 新 样本 更 
种 带 有 超 长 方 体 约束 的 数据 
。 该 机 制 首 先 以 少数 类 根 
线 ， 构 造 一 个 超 长 方 体 ， 新 
在 生成 之 前 ， 需 要 检测 此 超 


EO EEG 


最 后 ， 在 没 


fF 本 , 若 存 在 , 则 修正 此 超 长 方 体 。 
成 新 的 少数 类 样本 。 


超 长 方 体 4 
可 


解释 本 文 所 


的 


RAEE, Si 带 有 超 长 方 体 约束 的 少数 类 样本 生成 机 制 


F 类 边界 的 少数 类 样本 
只 针对 边界 少数 类 样本 进行 合 
fJ] Borderline-SMOTE 方法 。He 等 20 提 出 一 种 自 适 
技术 ADASYN, 该 技术 根据 近邻 中 多 数 


H 
TH 
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| 是 一 个 独立 模块 ， 能 够 蔡 换 线性 插值 ， 并 
SMOTE 类 的 方法 中 。 接 下 来 ， 本 文 将 首先 
EE IZ; WA BU 


小 然后 将 其 戏 入 到 SMOTE、 


Borderline-SMOTE 和 ADASYN 三 种 过 采样 方法 中 ， 并 与 原 


始 方法 进行 实验 对 比 ， 以 评估 该 机 制 的 有 效 性 。 
超 长 方 体 数据 生成 机 制 


SMOTE 和 线性 插值 

SMOTE 以 迭代 搜索 方式 B41 依次 从 少数 类 中 选择 一 个 样 

| 算 根 样本 到 其 他 少数 类 样本 之 间 的 欧式 

1 距离 根 样本 最 近 的 个 少数 类 近邻 。 然 后 ， 在 根 
之 间 ， 使 用 线性 插值 合成 新 的 
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1.1 
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zs ti 
距离 ， 得 于 
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是 当前 选 定 的 机 
S = {Kis Xu Xanas Tim4s Xm 
果 x 被 随机 选 
Kn? 的 连 线 上 ， H : 


ER, FH 


ERAR B Lo PERS — 1 E 
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一 条 线段 上 , 文献 [31] 也 指 昌 
AH 


HC(É 
中 


i] Rs 中 的 少数 类 样本 集 x， 假 设 记 eX 
TES 


Hr, EA a 的 近邻 集合 


5 SMOTE 的 线性 插值 原理 ， 如 
1(a))， 则 新 样本 xw 将 被 合成 在 x; 和 


Xoni = X; £(X4,3—X;) (1) 
，2 是 一 个 (0, ]) 之 间 的 随机 数 。 直观 来 看 ，xsm 被 限制 在 
8 这 种 线性 插值 将 影响 合成 新 样 


的 质量 。 另 外 ， 如 果 选 定 的 近邻 样本 为 xus (E 16), JUI x, 


与 zs 的 连 线 将 穿 过 多 数 类 区 域 ， 新 样本 x。 将 在 多 数 类 样本 


之 | 


fH 


司 合成 ， 从 而 导致 噪声 


(a) 近邻 选中 xnn2 


图 


* o 2 


* 9 [x 少数 类 样本 
Jeu e o apo A monk 
* : 9 6 
o ° cC 
e * 
9 o o; 本 * 
o0 x E 
e» ? 
o Xe * * 
2 * 
(b) 近邻 选中 xnn5 
E 成 新 样本 示意 图 


Fig.1 Illustration of generating new samples by SMOTE 
1.2 超 长 方 体内 生成 


为 了 解决 上 述 线 性 插值 存在 的 问题 ， 本 文 提 出 超 长 方 体 


生成 机 


Wi 


个 


还 是 存在 
体 生成 机 


ERA 


P =0.0001 。 


成 机 


广 展 少数 类 村 


，4=diag{w,o ,cj 是 
(0, 1) 之 间 的 随机 数 。 如 果 本 文 将 少数 类 样本 按 维度 展开 ， 
则 Xo 将 被 表示 为 
(xi -a (xi -xi)) 


(x? -a (X2 =x? )) 
Xon = . 


本 的 分 布 范围 。 给 定 R 中 的 少数 类 
根 样本 x eX, UA BE xs 被 随机 选中 (图 2(a))， 则 新 
E 本 x 将 在 x 和 x 确定 的 超 长 方 体内 合成 ， 即 : 

+Ax(Xm2 7x; ) (2) 


d 阶 对 


JERE, œ (i=1,2,..d) 是 一 


6) 


(xf -aa (xima - x!) 


通过 式 (3) 可 以 看 
成 将 增加 新 样本 的 随机 性 


出 ， 对 比 于 线性 插值 ， 在 超 长 方 体内 生 


范围。 但 值得 注意 的 是 ，xws 

定 可 能 被 合成 在 和 xm 的 连 线 上 ， 这 时 超 长 方 
E cag qz TE 
退化 概率 是 可 以 被 估计 的 ， 假 设 w BL rr 
本 位 于 二 和 ze À 


线 上 的 概率 为 


TZ " 


M d=2 H r=2 f, P2001; %4 d=3 H r22 时 ， 
ETR, REAT, EKAA 
BABAE 73 £E rd ELES BE TE DE 8 ETT o 
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1.3 防止 噪声 生成 策略 


如 图 2(b) 所 示 ， 当 选 定 的 近邻 样本 为 zw 时， 由 zs 大 


确定 的 超 长 方 体 与 多 数 类 区 域 发 生 


AARS 


BS x, 


xms 和 确定 的 超 长 方 体 修正 为 1 
方 体 ， 并 最 终 以 其 作为 新 样本 的 生成 区 域 。 
式 化 描述 。 给 定 多 数 类 


内 。 


RAEE, Pi 带 有 超 长 方 体 约束 的 少数 类 样本 生成 机 制 


最 近 的 多 数 类 样本 yas。 最后， 


样本 ， 则 这 个 新 样本 会 落 在 多 数 类 样本 之 间 
噪声 。 为 了 避免 合成 噪声 ， 本 文 为 超 长 方 体 生成 机 制 
一 个 检测 及 修正 策略 。 首 先 ， 计 算 并 检测 落 入 该 超 长 方 
的 多 数 类 样本 ， 即 得 到 yi- ym。 然后 ， 从 yas -ym 中 找到 距 
执行 修正 策略 , 将 初始 


重大 。 如 果 在 该 超 长 方 体 


H x; 


而 形成 
附加 了 
体内 


ym 和 x; 确定 的 新 的 超 长 


下 面 给 出 该 检测 及 修正 策略 的 


样本 集 Y ent ， 该 策略 首先 检测 ye 
对 于 yy 的 第 1 维 ， 判断 依据 如 式 (5) 所 示 。 
Min (x, x4.) € y! < Max(x/,x/,) 
如 果 yj 的 每 一 维度 均 满 足 式 (5)， 则 表明 ”位 了 
长 方 体内 ， 此 时 将 yy UNE T H 
中 每 一 个 样本 , 遍历 完成 后 若 T# 多 , WI T 中 找到 昌 


近 的 ME 


Yp =argmin{|y, -x| 
» 


然后 ， 使 用 修正 策略 依据 六 和 


$ 


本 将 在 修了 


各 只 


超 长 方 体内 ， 则 式 (7) 成 立 ， 这 显然 


1.4 


M =x; «|», EE 


O 多 数 类 样本 
会 新 合成 样本 


90 


(a) 近邻 选中 xnn2 
图 2 超 长 方 体 机 制 生成 


Fig.2 Illustration of generati 


Y 是 否 位 于 初始 超 长 方 体 


|.» eT] 


G) 


F 初始 超 
hh。 上述 检 测 步 又 要 遍历 了 
EB x, 最 


(6) 


g) 
h) 
i) 
j) 
k) 
1) 
m) 


n) 


o) 
p) 
q) 
r) 


个 独 
那么 
先 计 


d 


二 重新 构造 超 长 方 体 ， 新 


样本 。 这 是 因为 ， 如 果 存 在 y, (ye7T Hoy *»,)vE AE il 


GENOE E 


x| 


E 后 的 超 长 方 体内 生成 。 需 要 说 明 的 是 ， 修 正 策 
需 执行 一 次 即 可 保证 修正 后 的 超 长 方 体 中 不 包含 多 数 类 
E 后 的 


(b) 近邻 选中 xnn5 


新 样本 示意 图 


ng new samples by 


hypercuboid mechanism 


算法 描述 


超 长 方 体 生 成 机 制 的 操作 步骤 如 算法 1 月 


4-8 步 用 于 检测 菜 个 多 数 类 样本 v 


的 初始 超 长 方 体内 。 若 是 ， 将 y 放 
用 于 找到 7 (不 为 空 时 ) 中 距离 最近 的 样本 y,。 第 16-18 步 


hm. p. 5 


是 否 位 于 由 x xu 构造 
ARET 中 。 第 13-15 步 


该 算法 的 时 间 复 杂 度 可 被 估计 


值 的 0(4) 。 但 由 于 该 机 制 需 嵌 入 到 
采样 过 程 属 于 数据 预 处 理 阶 段 ， 是 独立 于 分 类 器 的 ， 
不 会 对 分 类 器 的 训练 时 间 构 成 影响 


关 
为 


o 


算法 1 超 长 方 体 数据 生成 机 


il 


输入 : 少数 类 根 样本 二 = Dd) ， 近邻 m Des 
数 类 样本 集合 . 
输出 : 一 个 合成 的 少数 类 样本 rw 。 


a) 
b) 
c) 
d) 
e) 
f) 


初始 化 了 = 纪 ; 
For j-1 to |Y| 
flag =1; 
For 1=1 to d 


If yj»Max(x,x,) or »;«Min(x,x,) then 


flag =0 ; goto step i); 


o(ay), Sm TAE 
合成 过 采样 算法 中 ， 


因由 


x) 


用 于 合成 新 的 少数 类 样本 。 在 具体 细节 上 ， 由 表示 集合 的 
基数 ，flag 用 作 六 是 否 存 入 的 开 


它 


， 多 


ua 
Xs 构 
前 ， 


End If 
End For 
If /flag—1] then 
T «y; 
End If 
End For 
If T#Ø then 
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y, argmin(|y; x]. y; ET} ; x =p; 
yi 


End If 
For t=1 to d 


xt, =X! + random(0,1)* (x, — x1) ; 


End For 


需要 说 明 的 是 ， 如 果 本 文 不 把 超 长 方 体 生 成 机 制 当 作 一 
RRHH PER SMOTE 类 过 采样 算法 中 的 线性 插值 ， 


算法 1 中 的 修正 查找 过 程 可 以 进一步 优化 。 本 文 可 以 预 


算得 到 训练 集中 任意 两 个 少数 类 样本 所 构成 超 长 方 体 


n 


H 


的 多 数 类 样本 的 信息 ， 然 后 在 每 次 合成 新 样本 时 利用 此 


HA. 


S Ginn) 表示 由 少数 类 样本 入, 所 构成 超 长 方 体 中 


的 多 数 类 样本 的 索引 。 Bü. G05) =1{2,3,7,9) 表明 由 和 
成 的 超 长 方 体 中 包含 多 数 类 样本 Yn Y3» Y7» Yo o 在 过 采样 之 


就 可 
值得 


类 样 


WE, BUT «y», jeG(.nn) 。 出 


本 文 将 所 有 的 GG. nn) 均 计算 出 来 ， 那 么 在 合成 新 样本 时 


注意 的 是 ， Gli,nn)=G(nn,i) 


以 直接 使 用 这 些 信 息 ， 这 将 大 大 缩短 算法 的 运行 时 i 


IU 


HJ. 


o 


在 获得 OG) 的 基础 上 ， 本 文 没有 必要 再 遍历 整个 多 数 
Ak v 。 相 应 地 ， 算 法 1 中 步骤 b)-) 可 以 简化 为 一 个 步 
时 算法 1 的 输入 中 需要 包含 一 个 新 


的 参数 Ginn) ， 算 法 的 时 间 复 杂 度 将 由 (di 四 下 降 到 
O(d|G(,nn)) 。 


2 


提出 的 超 长 方 体 4 
SMOTE 类 算法 中 蔡 换 线 怕 


实验 结果 与 分 析 


成 机 制 是 一 个 独立 模块 ， 可 被 侍 入 到 
插值 以 改善 合成 数据 的 质量 本文 将 


所 提 机 制 髋 入 到 SMOTE , Borderline-SMOTE( 简称 为 
BLSMOTE)、ADASYN 三 个 过 采样 算法 中 ， BUNT SEA 
为 HC-SMOTE、HC-BLSMOTE、HC-ADASYN, 然后 分 别 通 过 
人 工 合成 数据 集 实验 和 标准 数据 集 实验 来 评估 该 机 制 的 有 效 性 。 


2.1 


人 工 合成 数据 集 实验 


人 工 合成 数据 集 如 图 3 所 示 ， 其 中 少数 类 样本 用 红色 星 


rA 
PX 


进行 
3(b)( 


表示 。 图 3(a)(c)(e) 分 别 表示 


示 ， 多 数 类 样本 用 灰色 圆 


使 用 原始 的 SMOTE、BLSMOTE、ADASYN 对 少数 类 样本 
过 采样 后 的 结果 ， 新 合成 样本 使 用 三 角形 表示 ; 图 


d)() 分 别 表示 使 用 HC-SMOTE、HC-BLSMOTE、HC- 


ADASYN 进行 过 采样 的 结果 ， 


从 图 3 可 以 看 出 , SMOTE, 
性 插值 方式 合成 少数 类 村 


新 合成 样本 使 用 菱形 表示 。 
BLSMOTE、ADASYN 使 用 线 


EFE 本 ， 新 样本 均 位 于 原始 少数 类 样本 之 
间 的 连 线 上 ， 呈 现 出 明显 的 线段 分 布 ， 嵌 入 超 长 方 体 生 成 机 制 


后 ， HC-SMOTE、HC-BLSMOTE、HC-ADASYN 合成 了 分 布 更 


为 均 


3(a)(c) H 


会 成 
防止 
2.2 


匀 的 少数 类 样本 ， 并 且 扩展 了 少数 类 的 分 布 范 围 。 另 外 ， 
H 现 了 合成 样本 跨越 多 数 类 区 域 的 情况 ， 这 些 新 样本 


为 噪声 而 使 得 分 类 器 性 能 下 降 。 但 使 用 本 文 所 提 机 制 中 的 
噪声 生成 策略 后 ， 这 种 情况 不 再 发 生 ， 如 图 3(b)(d) 所 示 。 


标准 数据 集 实验 


为 了 体现 客观 性 ， 从 KEEL 不 平衡 数据 库 B53 中 选择 11 


个 标 ; 


中 均 


+ FH 
结果 


将 报告 5 次 实验 的 平均 


数据 集 进行 实验 ， 数 据 集 描述 见 表 1。 每 一 个 数据 外 
已 采用 5 折 交 又 验证 方式 划分 为 训练 集 和 测试 集 ， 实 验 


A 


值 。 实 验 参 数 按 默 认 设置 ， 
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SMOTE、BLSMOTE、ADASYN 在 合成 档 
为 5、5、7，BLSMOTE 在 判定 边界 样本 时 近邻 参数 为 7。 分 


类 器 使 用 C4.5B9I 和 AdaBoost[37]。 


本 时 近邻 参数 分 别 


10 10 


0.8 


0.8 


0.6 


0.6 


0.4 


0.4 


0.2 0.2 


0.0 0.0 


02 0.4 


0.6 0.8 10 


0.0 0.2 0.4 0.6 0.8 10 


02 0.4 


(e) ADASYN 
图 3 原始 方法 ( 左 ) 与 全 
Fig.3 Comparison of the original methods (left) with 


T 


(f) HC-ADASYN 


the integrated methods (right) 
评价 指标 包括 Fl 和 G-mean. Fl 是 精准 率 (Precision) 和 


f 


能 力 ; G-mean 是 敏感 


n 


成 后 方法 ( 右 ) 的 对 比 


率 (Reca11) 的 调和 平均 ,反映 分 类 器 对 少数 类 样本 的 分 类 
E (Sensitivity) RVEFR TE (Specificity) hy JU 


H 
何平 均 ， 反 映 分 类 器 兼顾 两 类 样本 时 的 分 类 能 力 。 这 些 指标 
表 3 SMOTE 5 HC-SMOTE 的 对 比 
Tab.3 Comparison of SMOTE with HC-SMOTE 


均 以 混淆 矩阵 ( 表 2) 为 基础 ， 计 算 公式 为 


Precision = 1 (8) 
Recall = Sensitivity = T (9) 
Specifificity - — 7 — (10) 
2 2x Recall x PUER a 1) 
Recall + Precision 
G -mean = VSensitivity x Specifificity (12) 
ded 数据 集 基 本 信息 
Tab. 1 Description of the datasets 
数据 集 名 称 关键 字 《样本 个 数 ”维度 “不 平衡 率 
Wisconsin Wi 683 9 1.86 
Vehicle2 Ve2 846 18 2.88 
New-thyroid2 N2 215 5 5.14 
Segment SO 2308 19 6.02 
Glass6 G6 214 9 6.38 
Yeast3 Y3 1484 8 8.10 
Vowel0 Vo0 988 13 9.98 
Ecoli4 E4 336 7 15.80 
Page-blocks-1-3 vs 4 P4 472 10 15.86 
Shuttle-c2-vs-c4 S4 129 9 20.50 
Yeast5 Y5 1484 8 32.73 
表 2 二 分 类 问题 的 混淆 矩阵 
Tab.2 Confusion matrix of the two-class problem 
实际 情况 预测 为 少数 类 预测 为 多 数 类 
实际 为 少数 类 TP FN 
实际 为 多 数 类 FP TN 


表 3 给 出 了 HC-SMOTE 与 原始 SMOTE 的 对 比 实验 结 


明 HC-SMOTE 对 AdaBoost 产生 了 积极 影响 。 


Ei 


TR. C4.5 分 别 在 9 个 数据 集 上 和 5 个 数据 集 上 取得 了 更 高 的 
Fl 和 G-meaz， 这 说 明 经 过 HC-SMOTE 过 采样 后 , 显著 提升 
了 C4.5 针对 少数 类 样本 的 识别 能 力 ， 但 在 兼顾 多 数 类 方面 
还 存在 不 足 ; AdaBoost 在 全 部 11 个 数据 集 上 均 取 得 了 更 高 
的 Fl， 同时 也 在 8 个 数据 集 上 获得 了 更 好 的 G-mean， 这 说 


C4.5 AdaBoost 
Data F1 G-mean Fi G-mean 
SMOTE HC-SMOTE SMOTE HC-SMOTE SMOTE HC-SMOTE SMOTE HC-SMOTE 
Wi 0.9460 0.9278 0.9600 0.9470 0.9383 0.9454 0.9556 0.9580 
Ve2 0.9230 0.9202 0.9586 0.9546 0.9176 0.9453 0.9592 0.9643 
N2 0.7918 0.9405 0.9258 0.9527 0.8695 0.9275 0.9484 0.9503 
S0 0.9730 0.9804 0.9878 0.9929 0.9792 0.9818 0.9952 0.9919 
G6 0.7785 0.7809 0.8888 0.8829 0.7484 0.8508 0.8615 0.9173 
Y3 0.7482 0.7723 0.9033 0.9209 0.7125 0.7732 0.8677 0.9027 
Vo0 0.8988 0.9166 0.9786 0.9600 0.9068 0.9307 0.9747 0.9770 
E4 0.7141 0.7691 0.9502 0.8789 0.7245 0.7429 0.9282 0.8519 
P4 0.8539 0.9667 0.9887 0.9977 0.8595 0.9667 0.9887 0.9977 
S4 0.9600 1.0000 0.9958 1.0000 0.9000 1.0000 0.9826 1.0000 
Y5 0.6584 0.7136 0.9401 0.9193 0.6803 0.7246 0.9273 0.9200 
表 4 给 出 了 HC-BLSMOTE 与 原始 BLSMOTE 的 对 比 实 。 数 类 样本 进行 过 采样 ， 而 本 文 所 提 机 制 与 BLSMOTE 结合 后 


验 结果 。C4.5 分 别 在 7 个 数据 集 上 和 9 个 数据 集 上 取得 了 更 
高 的 fl 和 G-mean, AdaBoost 在 8 个 数据 集 上 取得 了 更 高 的 
F1 和 G-mean。 由 于 BLSMOTE 在 数据 选择 阶段 只 对 边界 少 


表现 出 优异 的 性 能 ， 说 明 在 边界 处 对 少数 类 样本 进行 超 长 方 


体 区 域内 的 合成 ， 能 够 极 大 改善 新 合成 样本 的 质 
于 提高 分 类 器 的 泛 化 性 能 。 


E 
E, 


助 
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表 5 给 出 了 HC-ADASYN 与 原始 ADASYN 的 对 比 实验 。 绿色 虚线 表示 中 位 数 。SM、BD、AD 分 别 是 过 采样 方法 
结果 。C4.5 和 AdaBoost 分 别 在 11 个 和 10 个 数据 集 上 取得 ”SMOTE、BLSMOTE 和 ADASYN 的 缩写 。C45 和 Ada 分 别 
TERR FI, (BAE 6 个 和 3 个 数据 集 上 取得 了 更 高 的 G- 是 分 类 器 C4.5 和 AdaBoost 的 缩写 。 从 子 图 4(a)(c)(e) 可 以 看 
mean。ADASYN 为 每 个 少数 类 样本 施加 一 个 合成 权重 , 即 当 出 ， 改 进 后 的 方法 在 Fl 上 取得 了 大 幅 的 领先 ， 这 说 明 本 文 
邻 域内 多 数 类 样本 越 多 时 该 合成 权重 越 大 。 在 租 入 超 长 方 体 。 所 提 机 制 能 够 明显 提升 分 类 器 对 少数 类 的 识别 。 同 时 ， 改 进 
生成 机 制 后 ，HC-ADASYN 将 更 关注 权重 大 的 少数 类 样本 ， 后 的 HC-SMOTE 和 HC-BLSMOTE 在 G-mean 的 表现 上 也 优 
但 可 能 导致 部 分 多 数 类 样本 被 忽视 。 于 原始 方法 。 整 体 来 看 , 超 长 方 体 生成 机 制 舱 入 到 Borderline- 
图 4 是 上 述 实 验 结果 的 箱 线 图 , 红色 菱形 点 表示 平均 值 ， SMOTE 后 的 性 能 最 好 。 

表 4 BLSMOTE 与 HC-BLSMOTE 的 对 比 
Tab.4 Comparison of BLSMOTE with HC-BLSMOTE 


Ji 


C4.5 AdaBoost 
Data Fi G-mean Fi G-mean 
BLSMOTE  HC-BLSMOTE  BLSMOTE  HC-BLSMOTE  BLSMOTE  HC-BLSMOTE | BLSMOTE  JHC-BLSMOTE 
Wi 0.9243 0.9414 0.9456 0.9604 0.9244 0.9442 0.9417 0.9590 
Ve2 0.9192 0.9323 0.9447 0.9581 0.9566 0.9560 0.9728 0.9681 
N2 0.9119 0.9273 0.9353 0.9501 0.8894 0.9581 0.9396 0.9798 
S0 0.9759 0.9717 0.9870 0.9888 0.9743 0.9759 0.9868 0.9871 
G6 0.7578 0.7921 0.8642 0.8913 0.8264 0.8636 0.8794 0.9201 
Y3 0.7773 0.7939 0.9117 0.9274 0.7423 0.7454 0.8638 0.8793 
Vo0 0.9381 0.8544 0.9882 0.9425 0.9576 0.8996 0.9905 0.9638 
E4 0.7254 0.7667 0.8759 0.9077 0.7048 0.7476 0.8496 0.8775 
P4 0.9227 0.9667 0.9943 0.9977 0.9227 0.9667 0.9943 0.9977 
S4 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 
Y5 0.7413 0.7104 0.9331 0.9420 0.7190 0.7371 0.8722 0.9429 


表 5 ADASYN 5 HC-ADASYN 的 对 比 
Tab.5 Comparison of ADASYN with HC-ADASYN 


C4.5 AdaBoost 
Data Fi G-mean F1 G-mean 
ADASYN HC-ADASYN ADASYN HC-ADASYN ADASYN HC-ADASYN ADASYN HC-ADASYN 
Wi 0.9337 0.9360 0.9SS7 0.9535 0.9430 0.9383 0.9606 0.9494 
Ve2 0.8977 0.9334 0.9446 0.9555 0.9229 0.9489 0.9601 0.9641 
N2 0.8211 0.9405 0.9456 0.9527 0.8772 0.9275 0.9601 0.9503 
S0 0.9595 0.9773 0.9891 0.9898 0.9677 0.9833 0.9893 0.9908 
G6 0.6888 0.7448 0.8591 0.8326 0.7458 0.8407 0.8937 0.8827 
Y3 0.7234 0.7763 0.8951 0.9030 0.7069 0.7425 0.8749 0.8727 
Vo0 0.8521 0.9125 0.9820 0.9589 0.8970 0.9363 0.9882 0.9667 
E4 0.6134 0.7076 0.8417 0.8222 0.6181 0.6333 0.8296 0.7860 
P4 0.8300 0.9227 0.9864 0.9943 0.8803 0.8833 0.9910 0.9560 
S4 0.8476 1.0000 0.9830 1.0000 0.9600 1.0000 0.9958 1.0000 
Y5 0.6087 0.7193 0.9467 0.9081 0.7180 0.7680 0.9757 0.8858 
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图 4 标准 数据 集 实验 结果 的 箱 线 图 


Fig.4 Boxplots of experimental results on benchmark datasets 


3 ”结束 语 


本 文 提出 一 种 新 的 数据 生成 机 
它 使 用 超 长 方 体 作为 新 样本 的 生成 区 域 来 代替 线性 插值 ， 以 
增加 新 合成 样本 与 原始 样本 的 差异 性 。 为 防止 新 样本 落 入 多 
数 类 区 域内 ， 一 个 检测 及 修正 策略 被 附加 到 该 超 长 方 体 生 成 
机 制 中 ， 从 而 避免 了 噪声 的 产生 。 

在 标准 数据 集 上 的 实验 表明 , 当 该 机 制 集成 到 SMOTE、 
Borderline-S5MOTE, ADASYN 三 个 过 采样 方法 后 , 两 个 标准 
分 类 器 在 大 部 分 数据 集 上 均 取得 了 更 高 的 Fl 值 ， 说 明 超 长 
方 体 生 成 机 制 能 够 显著 改善 分 类 器 对 少数 类 样本 的 识 另 
1E G-mean 评价 指标 上 ,集成 后 的 方法 表现 与 原始 方法 相当 ， 
说 明 其 在 关注 少数 类 样本 的 同时 ， 也 能 够 兼顾 多 数 类 样本 。 

本 文 工 作 从 数据 生成 机 制 出 发 ， 为 不 平衡 学 习 中 过 采样 
方法 的 研究 提供 了 一 个 新 的 思路 。 但 提出 的 超 长 方 体 生 成 机 
制 是 启发 式 的 ， 其 有 效 性 建立 在 实验 评估 的 基础 之 上 。 下 一 
步 工作 将 在 理论 层面 上 深入 研究 数据 生成 机 制 对 合成 样本 质 
量 的 影响 。 
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